We propose AnyTOD, an end-to-end task-oriented dialog (TOD) system with zero-shot capability for unseen tasks. We view TOD as a program executed by a language model (LM), where program logic and ontology is provided by a designer in the form of a schema. To enable generalization onto unseen schemas and programs without prior training, AnyTOD adopts a neuro-symbolic approach. A neural LM keeps track of events that occur during a conversation, and a symbolic program implementing the dialog policy is executed to recommend next actions AnyTOD should take. This approach drastically reduces data annotation and model training requirements, addressing a long-standing challenge in TOD research: rapidly adapting a TOD system to unseen tasks and domains. We demonstrate state-of-the-art results on the STAR and ABCD benchmarks, as well as AnyTOD's strong zero-shot transfer capability in low-resource settings. In addition, we release STARv2, an updated version of the STAR dataset with richer data annotations, for benchmarking zero-shot end-to-end TOD models.
translated by 谷歌翻译
Most research on task oriented dialog modeling is based on written text input. However, users interact with practical dialog systems often using speech as input. Typically, systems convert speech into text using an Automatic Speech Recognition (ASR) system, introducing errors. Furthermore, these systems do not address the differences in written and spoken language. The research on this topic is stymied by the lack of a public corpus. Motivated by these considerations, our goal in hosting the speech-aware dialog state tracking challenge was to create a public corpus or task which can be used to investigate the performance gap between the written and spoken forms of input, develop models that could alleviate this gap, and establish whether Text-to-Speech-based (TTS) systems is a reasonable surrogate to the more-labor intensive human data collection. We created three spoken versions of the popular written-domain MultiWoz task -- (a) TTS-Verbatim: written user inputs were converted into speech waveforms using a TTS system, (b) Human-Verbatim: humans spoke the user inputs verbatim, and (c) Human-paraphrased: humans paraphrased the user inputs. Additionally, we provided different forms of ASR output to encourage wider participation from teams that may not have access to state-of-the-art ASR systems. These included ASR transcripts, word time stamps, and latent representations of the audio (audio encoder outputs). In this paper, we describe the corpus, report results from participating teams, provide preliminary analyses of their results, and summarize the current state-of-the-art in this domain.
translated by 谷歌翻译
触摸是人类之间互动和交流的关键部分,但在人类机器人的互动中仍然很少探索。在这项工作中,要求参与者接近并触摸手上的人形机器人(NAO -26名参与者; Pepper -28名参与者),以引起注意。我们为机器人设计了反应行为,该机器人由四种不同的手臂运动组合组成,而被触摸的手向前或向后移动,另一只手向前移动或保持到位,同时向后倾斜,然后看参与者。我们研究了机器人的哪种反应发现最合适的是他们选择的原因。对于两个机器人,被触摸的机器人手的首选反应正在向后移动。另一方面,根本没有任何动作对胡椒来说最自然,而NAO则是向前移动的。发现了参与者人格特征的焦虑量表与机器人反应的主动/侵略性的被动性分量表之间的相关性。大多数参与者注意到倾斜的后背并积极地对其进行了评分。一些参与者在非结构化评论中对参与者进行了积极评论。我们还分析了参与者在哪里以及如何自发接触机器人手上的地方。总而言之,这里设计的触摸反应行为是一个很好的候选人,可以更普遍地在社交机器人中部署,可能包括在拥挤的环境中偶然触摸。机器人尺寸构成了一个重要因素,该因素塑造了如何感知机器人反应。
translated by 谷歌翻译
在实际应用桥梁称重(BWIM)方法中,车辆通过期间车轮或车轴的位置在大多数情况下是先决条件。为了避免使用常规轴检测器和桥梁类型特定的方法,我们提出了一种新的方法来通过在桥梁的任何点上放置加速度计来检测轴检测。为了开发尽可能简单且可理解的模型,将轴检测任务实现为二进制分类问题,而不是回归问题。该模型被用作完全卷积网络,以连续小波变换的形式处理信号。这允许在单个步骤中以最大效率处理任何长度的段落,同时在单个评估中使用多个量表。这使我们的方法能够在桥结构的任何位置使用加速信号,该位置用作虚拟轴检测器(VADS),而无需仅限于特定的结构类型的桥梁。为了测试提出的方法,我们分析了在长途交通线的钢槽铁路桥上记录的3787列火车通道。我们在测量数据上的结果表明,我们的模型检测到轴的95%,因此,正确检测到了134,800个以前看不见的轴的128,599。总共可以以20厘米的最大空间误差检测到90%的车轴,最大速度为$ v _ {\ mathrm {max}} = 56,3〜 \ mathrm {m/s} $。分析表明,即使在实际操作条件下,我们开发的模型也可以使用加速度计作为VAD。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
由自我发项层组成的大型,预训练的神经网络(变形金刚)最近在几种语音情绪识别(SER)数据集上取得了最新的结果。这些模型通常以自我监督的方式进行预训练,以提高自动语音识别性能,从而了解语言信息。在这项工作中,我们研究了在Ser微调过程中利用此信息的程度。使用基于开源工具的可重现方法,我们在改变文本的情感时综合了韵律中性的语音话语。变压器模型的价预测对正面和负面情绪含量以及否定性非常反应,但对增强剂或还原器不反应,而这些语言特征都没有影响唤醒或优势。这些发现表明,变形金刚可以成功利用语言信息来改善其价预测,并且应将语言分析包括在其测试中。
translated by 谷歌翻译
增强业务流程管理系统(ABPMS)是一类新兴的过程感知信息系统,可利用值得信赖的AI技术。ABPMS增强了业务流程的执行,目的是使这些过程更加适应性,主动,可解释和上下文敏感。该宣言为ABPMS提供了愿景,并讨论了需要克服实现这一愿景的研究挑战。为此,我们定义了ABPM的概念,概述了ABPMS中流程的生命周期,我们讨论了ABPMS的核心特征,并提出了一系列挑战以实现具有这些特征的系统。
translated by 谷歌翻译
对颅面畸形的评估需要稀疏可用的患者数据。统计形状模型提供了现实和合成数据,从而实现了公共数据集上现有方法的比较。我们建立了第一个公开可获得的颅骨肌肤肤化患者的统计3D头号,并将重点关注比1.5年更年轻的婴儿。对于通信建立,我们测试和评估四种模板变形方法。我们进一步提出了一种基于模型的基于模型的基于模型的分类方法,用于摄影测图表面扫描。据我们所知,我们的研究使用最大的Craniosynosisosis患者数据集,以迄今为止的粗糙化和统计形状建模的分类研究。我们展示了我们的形状模型与人头的其他统计形状模型类似。特异性抗皱性病理学在该模型的第一个特征模具中表示。关于Craniosynostis的自动分类,我们的分类方法能够提供97.3%的精度,与使用两种计算机断层扫描扫描和立体测量法进行的其他最先进的方法相当。我们公开的颅骨弯曲特异性统计形状模型能够评估粗糙化和合成数据的颅骨。我们进一步提出了一种基于最先进的形状模型的分类方法,用于无放射诊断性的颅骨。
translated by 谷歌翻译
拉曼光谱与机器学习的组合在临床环境中的应用具有重要的希望,作为一种快速,敏感和无标签的识别方法。这些方法在分类数据中表现良好,该数据包含在训练阶段期间发生的类。但是,在实践中,总是存在频谱尚未被采取或尚未知道的物质,并且当输入数据远离训练集并且包括在训练阶段未见的新类,大量的错误记录阳性,这限制了这些算法的临床相关性。在这里,我们表明这些障碍可以通过实现最近推出的熵开路和对象圈丢失功能来克服。为了证明这种方法的效率,我们编制了40种化学类别的拉曼光谱数据库,将它们分成20种生物学相关的氨基酸,10个与生物相关化学品组成的10个不相关的类,以及神经网络没有的10个类别。以前看过,由各种其他化学品组成。我们表明这种方法使网络能够有效地识别未知类,同时在已知的那些对高精度保持高精度,大大减少了误报的数量,同时在已知类上保持高精度,这将允许这种技术弥合实验室之间的差距实验和临床应用。
translated by 谷歌翻译
道德是人类最长的智力努力之一。近年来,AI和NLP的领域试图撰写与学习系统的与人类相互作用的学习系统,应该被限制为行为道德。该静脉中的一个提议是建立道德模型,可以采取任意文本,并输出关于所描述的情况的道德判断。在这项工作中,我们专注于对最近提出的Delphi模型的单一案例研究,并为该项目的建议自动化道德判决提供了批评。通过对Delphi的审计,我们检查更广泛的问题,适用于任何类似的尝试。我们讨论了机器道德如何通过专注于技术的当前和近期使用技术的方式来讨论机器伦理,以透明度,民主价值观,并允许直接的责任。
translated by 谷歌翻译